En este módulo, pasamos del paradigma tradicional de ajuste fino basado en pesos al mundo dinámico de Aprendizaje in-context (ICL). Exploramos cómo los modelos de lenguaje grandes (LLMs) logran dominio de tareas sin alterar su arquitectura interna, sino aprovechando la estructura misma de la entrada para navegar espacios latentes complejos.
1. De decir a mostrar
Mientras que una instrucción proporciona una dirección general, la "imitación" mediante pares entrada-salida $(x, y)$ actúa como una guía no paramétrica. Estos ejemplos sirven como anclas estadísticas que reducen la distribución de probabilidad del modelo, disminuyendo la ambigüedad inherente en las instrucciones en lenguaje natural crudo.
2. Los mecanismos de atención
El ICL depende del mecanismo de atención del Transformer para realizar la "inducción de tareas". Al identificar regularidades dentro de la secuencia que proporcionas, el modelo localiza un mapeo funcional específico en su espacio de alta dimensión, permitiéndole imitar estilos y estructuras con gran precisión.
Goal: Provide a three-exemplar few-shot prompt that teaches the model a specific "Concise Executive" style, rather than just a generic professional tone.
Adjectives like "Concise" are subjective and have broad probability distributions; examples provide a concrete structural template that the attention mechanism can emulate with mathematical precision.